문서의 임의 삭제는 제재 대상으로, 문서를 삭제하려면 삭제 토론을 진행해야 합니다. 문서 보기문서 삭제토론 통계적 방법/분석/분산분석 (문단 편집) ==== 사후분석 ==== 위에 소개된 분산분석의 대립가설(H,,1,,)을 보면 분석가가 당초 알고자 하는 것과는 차이가 있다. 분석가는 단순히 차이가 있는지 없는지만 궁금한 게 아니다. 차이가 있다면 구체적으로 '''어떤 집단과 어떤 집단이 차이가 있는지,''' 그 차이에 따라서 이들 '''여러 집단들이 어떤 부분집합으로 묶이게 될지'''까지 알고 싶은 것이다. 하지만 분산분석은 그 자체로는 거기까지 말하지 않는다. 그냥 전체 집단들을 한꺼번에 싸잡아서 분석하고는, "이 중에 서로 차이를 보이는 집단들이 있기는 한데 [[안알랴줌|그 이상은 말 못 함]]" 수준의 결론만을 도출할 뿐이다. 따라서 만일 분산분석 결과가 통계적으로 유의하게 얻어졌다면, 분산분석만으로 끝낼 것이 아니라 사후분석을 추가로 수행해야 한다. 물론 여기서의 사후분석을 한다는 얘기는 처음에 대조했던 대응표본 t-검정을 반복 수행한다는 식의 내용이 아니다. SPSS를 살펴보면 사후분석 대화 창에 알 듯 모를 듯한 외국인 이름들이 잔뜩 튀어나오는 것을 볼 수 있는데(…) [[통계적 방법]]의 기초 커리큘럼에서 외국인 이름들을 기억하는 게 거의 유일하게 중요한 순간이다. 왜냐하면 이 양반들이 '''어디서든 효과를 회피하면서도 신뢰할 만한 다중비교 방법'''을 고안해냈기 때문이다. 그런데 해당 대화 창을 자세히 보면, 외국인 이름들이 두 묶음으로 분류되어 있다. 이는 분산분석의 주요 전제인 '''등분산성'''(homoskedasticity)이 성립하느냐 어겨지느냐에 따라 사후분석의 방법이 달라지기 때문이다. 분산분석은 분석에 포함되는 여러 집단들의 모집단 분산이 동일할 것이라고 가정하고 수행되는 것으로, 표본 속 여러 집단들의 표본분산(s^^2^^) 정보를 통해 모분산(σ^^2^^)을 추정함으로써 해당 가정을 정당화한다. 이게 성립되지 않으면 위에서 길게 소개했던 F-통계량의 계산 논리가 흔들린다. 따라서 SPSS에서도 '분산 동질성 검정' 이라고 하여 이를 검정하는 기능을 제공하고 있으며, 비록 논문이나 보고서에서 잘 보고하지도 않는데다 디폴트로 체크박스가 찍혀있지도 않아서 놓치고 넘어가는 초심자들도 많기는 하지만, 사실 '''등분산성은 분산분석으로 출력되는 결과표에서 제일 먼저 확인해야 하는 부분이다.''' 여기서 영가설은 '각 분산들이 차이가 없다' 이기 때문에 '''유의확률이 p>.05일 때에만 F-통계량이 의미가 있다.''' 만일 유의확률이 p<.05로 작게 나온다면 등분산성이 깨지는 골치아픈 상황이므로, 멋모르고 p-값이 작다며 좋아할 게 아니라(…) 이분산성 문제에 대응할 방법을 찾아야 한다. 등분산성이 성립하지 않을 때 F-통계량에 대응하는 대안적 통계량으로 '''Welch 통계량'''이 있으며, 이때는 등분산성이 성립하지 않음을 보고하고 F-통계량 대신에 해당 통계량을 취하여 유의확률과 함께 보고하면 된다. 또한 일반적으로 쓰이는 사후분석 방법들도 대부분 쓰일 수 없으며, 그 대신에 등분산성이 가정되지 않는 상황에서 사용되는 사후분석을 취하여 보고해야 한다. 그런데 많은 사람들이 '1차 분석 → 이분산성 발견 → Welch 및 사후분석 방법 변경하여 2차 분석' 같은 식으로 괜히 분석을 두 번 진행하는데, 그럴 필요 없이 '''처음부터 전부 출력시켜 놓고 등분산성 검정 결과에 따라 양쪽 중 하나를 보고해도 된다.''' 즉, 처음부터 F-통계량과 Welch 통계량을 전부 명령하고, 사후분석도 등분산성 가정 때의 방법 중에 하나와 가정하지 않을 때의 방법 중 하나를 둘 다 찍어놓은 후, 출력표에서 등분산성 검정 결과를 확인한 뒤 자기가 필요한 것만 골라서 보고하는 것이다. SPSS에서 지원하는 사후분석 방법들을 나열하면 다음과 같다. 흔히 사용되는 사후분석 방법들에는 약간의 설명을 추가하였다. * '''등분산을 가정함''' * '''LSD''': F-분포를 제안한 그 통계학자 로널드 피셔 경(Sir R.A.Fisher)이 만든 최소유의차법(least significant difference). 웬만하면 다 차이가 있다고 판정해 주는 통에, 한때 많이 썼었지만 분석의 엄격성이 강조되는 현대에는 점점 인기가 식고 있다. 원론적으로 보아 다중비교 문제를 '극복' 한 방법은 아니라는 평. 일반인 수준에서 분석할 때에는[* 예컨대 복지관장이 자기 시설에서 운영하는 프로그램들의 효과를 분산분석하는 경우 등. 의외로 학계 외부에서도 이런 식으로 시설 단위에서 자체적으로 통계분석을 하면서 성과평가를 하는 경우가 꽤 있다.] 아래의 Bonferroni 방법과 함께 충분히 용인될 수 있다. * '''Bonferroni''': 유의수준을 집단 수만큼 깎아서 다중비교 문제에 대응한다. 현대에는 다중비교 문제에 대한 대응법으로 가장 먼저 소개되는 기초적인 방법의 위상. 비모수적 검정에서도 적용이 가능한 범용성을 자랑하며, 판정의 엄격성은 중간 정도라고 알려져 있다. * '''Sidak''': 위의 Bonferroni 방법보다 좀 더 엄격한 방법. SPSS에서 광범위한 분산분석들의 주변평균을 위해 LSD와 함께 제공하나, 상대적으로 잘 쓰이지 않는다. * '''Scheffe''': 닥치고 엄격하다(…). 집단 간에 유의한 차이가 있는지 F-분포에 의거하여 매우 깐깐하게 따지는 방법으로, 오히려 너무 깐깐해서 2종 오류의 가능성이 높아진다는 불만도 있다. 자연과학 분야에서는 괜찮지만 사회과학 분야에서는 다소 가혹할 수도 있다. * '''Tukey 방법''', '''Tukey의 b''': 스튜던트화 범위 분포(studentized range distribution)를 활용한 방법으로, 분석에 포함되는 각 집단들의 관측값 수(n)가 전부 동일해야 한다는 한계가 있었다. 그러다가 최초 발표 3년 후에 조화평균으로 이 문제를 보완한 '''Tukey-Kramer 방법'''이 나왔으며, SPSS에서는 Tukey의 b를 선택하면 된다. 집단 간 관측값 수(n)는 이제 달라도 상관없지만, 소표본에 취약하다는 문제는 있다.[* 참고로 통계학자 존 투키(J.Tukey)는 작명센스가 좀 특이했는지, 'honestly significant difference(HSD)', 'wholly significant difference(WSD)' 같은 이름을 붙여놓았다.] * '''Duncan''': 엄격성이 낮은 사후분석의 대명사. LSD만큼은 아니지만 사회과학 응용분야 이외에는 더 엄격한 방법을 취하라는 지적이 나올 수도 있다. 그러나 단순한 [[설문조사]] 결과를 분석하는 정도라면 충분히 쓰일 수 있다. * '''Dunnett''': 여러 집단들 중에서 하나를 기준집단으로 두고 그것과 다른 집단들의 차이를 중점적으로 본다. 따라서 [[통제집단과 실험집단|통제집단 하나에 여러 비교집단을 두는 실험설계]]에 적합하다. 그러나 비교집단끼리 차이가 있는지 비교하기에는 부적절하다. * 기타: R-E-G-W의 F, R-E-G-W-의 Q, S-N-K, Hochberg의 GT2, Gabriel, Waller-Duncan * '''등분산을 가정하지 않음''' * '''Tamhane의 T2''': 엄격한 편에 속하는 사후분석으로, 대체로 양호하지만 대표본일수록 엄격성이 낮아진다. * '''Dunnett의 T3''': 소표본에서 강력한 사후분석. 절댓값의 분포를 토대로 개발된 방법이다. 아래의 Games-Howell과 함께 쌍두마차 격으로 자주 쓰이며 서로 비교도 많이 되는 방법이다. * '''Games-Howell''': 대중적으로 잘 알려진 사후분석이며 Welch 통계량을 활용하여 계산하지만, 상대적으로 엄격성이 떨어지는 편이고 소표본에 취약하다는 비판이 있다. 정규성이 깨졌을 때에도 쓰일 수 있다는 것은 장점. * '''Dunnett의 C''': 스튜던트화 범위 분포를 활용한 방법이며, 소표본 문제나 집단이 과다한 상황에도 전반적으로 대응이 가능하고, 정규성이 깨졌을 때에도 사용 가능하다. 그럼에도 각 집단 간 표본 크기가 같을 때에만 쓰일 수 있어서 큰 인기를 끌지는 못하고 있다. 사후분석 결과는 일단 출력표가 눈에 익숙해진다면 '''자주 쓰이는 것 여러 종류를 함께 골라서 비교'''하는 것도 좋다. 각 방법들이 저마다 근거 논리가 다르기 때문에 분석결과도 조금씩 다를 수 있기 때문이다. 심지어 어떤 방법은 분산분석 결과와 대비되는 상황, 예컨대 분산분석에서는 유의하게 나왔는데 막상 사후분석에서는 아무 집단 간에도 유의하지 않다고 나오는 상황이 발생할 수 있다. 그럴 때는 다른 사후분석 방법들을 선택해 보면 유의한 것이 확인될 수 있으므로, 아무데서도 유의성이 나타나지 않았다고 해서 좌절할 필요는 없다. 구태여 여러 번 사후분석을 반복하는 것보다는, 차라리 이런 상황을 예상하고 처음부터 인기있는 분석들 2~3종류 정도는 전부 체크박스에 찍어놓으라는 것. 사후분석의 또 다른 난관은 '''때로 해석하기 어려운 결과가 도출될 수 있다'''는 데 있다. 특히 이것은 '동질적 부분집합' 기능을 중심으로 결과를 해석하려 할 때 불거질 수 있다. 예컨대 수학 성적의 평균이 1반은 70점, 2반은 72점, 3반은 80점이라고 가정해 보자. 이런 경우 1반과 2반을 같은 부분집합(subset)으로 묶고, 3반은 이들보다 평균이 높은 다른 부분집합이라고 구분하여, g,,1,,=g,,2,,<g,,3,, 관계로 깔끔하게 해석하면 된다. 그런데 만일, 1반은 72점, 2반은 75점, 3반은 79점이 나왔다고 가정해 보자. 이 경우 사후분석 결과는 1반과 2반 사이에 유의하지 않고, 2반과 3반 사이에도 유의하지 않으면서, 1반과 3반 사이에서만 유의하다고 도출될 수 있다. 즉 g,,1,,=g,,2,,\, g,,2,,=g,,3,,인데 g,,1,,<g,,3,,도 되는 것이다. 이게 수학 점수가 아니라 각각 [[플라시보]] 집단, 기존약 집단, 신약 집단이라고 생각해 보면 이 신약의 약효를 홍보하기에 상당히 골치아파질 수 있고(…), 실제로 분산분석을 쓰다 보면 의외로 이런 상황이 자주 생긴다. {{{#!folding [일원분산분석의 명령과 결과] 구체적인 출력내용은 사용목적 및 버전에 따라 다를 수 있다. 이하의 사례는 독립변인의 범주별 평균이 '값1=값2<값3' 이 성립하는 가상의 결과를 보여준다. ||분석 ▶ 평균 비교 ▶ 일원배치 분산분석 ▶ [요인-독립변수 입력] ▶ [종속변수 입력][BR]▶ 사후분석 ▶ [사후 검정변수 입력] ▶ Scheffeⓥ / Dunnett T3ⓥ ▶ 계속[BR]▶ 옵션 ▶ 기술통계ⓥ / 분산 동질성 검정ⓥ / Welchⓥ ▶ 계속[BR]▶ 확인|| 위의 방식대로 명령을 내리면 아래와 같은 결과가 나온다. {{{#B7F0B1 ■}}} 색상으로 칠해진 셀의 경우 결과보고의 대상이 되므로 주의를 기울여야 한다. ||<:><#FFFFFF><-9>{{{+1 기술통계}}}|| ||<#FFFFFF><-9><(>{{{-1 종속변수}}}|| ||<:> ||<:>{{{-1 N}}}||<:>{{{-1 평균}}}||<:>{{{-1 표준편차}}}||<:>{{{-1 표준오차}}}||<-2><:>{{{-1 평균에 대한 95% 신뢰구간}}}||<:>{{{-1 최소값}}}||<:>{{{-1 최대값}}}|| ||<:>{{{-1 하한}}}||<:>{{{-1 상한}}}|| ||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 전체}}}||<#FFFFFF><)>{{{-1 #}}}||<#FFFFFF><)>{{{-1 #}}}||<#FFFFFF><)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<:><#FFFFFF><-4>{{{+1 분산의 동질성 검정}}}|| ||<#FFFFFF><-4><(>{{{-1 종속변수}}}|| ||<:>{{{-1 Levene 통계량}}}||<:>{{{-1 자유도1}}}||<:>{{{-1 자유도2}}}||<:>{{{-1 유의확률}}}|| ||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<:><#FFFFFF><-5>{{{+1 평균의 동질성 검정}}}|| ||<#FFFFFF><-5><(>{{{-1 종속변수}}}|| ||<:> ||<:>{{{-1 통계량}}}^^a^^||<:>{{{-1 자유도1}}}||<:>{{{-1 자유도2}}}||<:>{{{-1 유의확률}}}|| ||<#EEEEEE><(>{{{-1 Welch}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<#FFFFFF><-5>,,a. 자동으로 F 분배합니다.,,|| ||<:><#FFFFFF><-6>{{{+1 ANOVA}}}|| ||<#FFFFFF><-6><(>{{{-1 종속변수}}}|| ||<:> ||<:>{{{-1 제곱합}}}||<:>{{{-1 자유도}}}||<:>{{{-1 평균제곱}}}||<:>{{{-1 F}}}||<:>{{{-1 유의확률}}}|| ||<(>{{{-1 집단-간}}}||<)>{{{-1 SS,,B,,=ⓐ}}}||<#B7F0B1><)>{{{-1 k-1=ⓑ}}}||<)>{{{-1 MS,,B,,=ⓐ÷ⓑ=ⓒ}}}||<#B7F0B1><)>{{{-1 ⓒ÷ⓕ}}}||<#B7F0B1><)>{{{-1 #}}}|| ||<(>{{{-1 집단-내}}}||<)>{{{-1 SS,,W,,=ⓓ}}}||<#B7F0B1><)>{{{-1 n-k=ⓔ}}}||<)>{{{-1 MS,,W,,=ⓓ÷ⓔ=ⓕ}}}|| || || ||<(>{{{-1 전체}}}||<)>{{{-1 ⓐ+ⓓ}}}||<)>{{{-1 ⓑ+ⓔ}}}|| || || || ||<:><#FFFFFF><-8>{{{+1 대응별 비교}}}|| ||<#FFFFFF><-8><(>{{{-1 종속변수}}}|| || ||<:>{{{-1 (I) 독립변수}}}||<:>{{{-1 (J) 독립변수}}}||<:>{{{-1 평균차이(I-J)}}}||<:>{{{-1 표준오차}}}||<:>{{{-1 유의확률}}}||<-2><:>{{{-1 95% 신뢰구간}}}|| ||<:>{{{-1 하한}}}||<:>{{{-1 상한}}}|| ||<^|6><(>{{{-1 Scheffe}}}||<^|2><(>{{{-1 값1}}}||<(>{{{-1 값2}}}||<)>{{{-1 ⓐ}}}||<)>{{{-1 ⓓ}}}||<)>{{{-1 ⓖ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 ⓑ}}}'''*'''||<)>{{{-1 ⓔ}}}||<#B7F0B1><)>{{{-1 ⓗ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값2}}}||<(>{{{-1 값1}}}||<)>{{{-1 ⓐ}}}||<)>{{{-1 ⓓ}}}||<)>{{{-1 ⓖ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 ⓒ}}}'''*'''||<)>{{{-1 ⓕ}}}||<#B7F0B1><)>{{{-1 ⓘ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값3}}}||<(>{{{-1 값1}}}||<)>{{{-1 ⓑ}}}'''*'''||<)>{{{-1 ⓔ}}}||<)>{{{-1 ⓗ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 ⓒ}}}'''*'''||<)>{{{-1 ⓕ}}}||<)>{{{-1 ⓘ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|6><(>{{{-1 Dunnett T3}}}||<^|2><(>{{{-1 값1}}}||<(>{{{-1 값2}}}||<)>{{{-1 ⓐ}}}||<)>{{{-1 ⓓ}}}||<)>{{{-1 ⓖ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 ⓑ}}}'''*'''||<)>{{{-1 ⓔ}}}||<)>{{{-1 ⓗ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값2}}}||<(>{{{-1 값1}}}||<)>{{{-1 ⓐ}}}||<)>{{{-1 ⓓ}}}||<)>{{{-1 ⓖ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값3}}}||<)>{{{-1 ⓒ}}}'''*'''||<)>{{{-1 ⓕ}}}||<)>{{{-1 ⓘ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<^|2><(>{{{-1 값3}}}||<(>{{{-1 값1}}}||<)>{{{-1 ⓑ}}}'''*'''||<)>{{{-1 ⓔ}}}||<)>{{{-1 ⓗ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<(>{{{-1 값2}}}||<)>{{{-1 ⓒ}}}'''*'''||<)>{{{-1 ⓕ}}}||<)>{{{-1 ⓘ}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<#FFFFFF><-8><(>,,'''*'''. 평균차이는 0.05 수준에서 유의합니다.,,|| ||<(><#FFFFFF><-4>'''{{{+1 동질적 부분집합}}}'''|| ||<#FFFFFF><-4><:>{{{+1 종속변수}}}|| ||<#FFFFFF><-4><(>{{{-1 Scheffe}}}^^a,b^^|| ||<(>{{{-1 독립변수}}}||<:>{{{-1 N}}}||<-2><:>{{{-1 유의수준=0.05에 대한 부분집합}}}|| ||<:>{{{-1 1}}}||<:>{{{-1 2}}}|| ||<(>{{{-1 값1}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)> || ||<(>{{{-1 값2}}}||<)>{{{-1 #}}}||<)>{{{-1 #}}}||<)> || ||<(>{{{-1 값3}}}||<)>{{{-1 #}}}||<)> ||<)>{{{-1 #}}} || ||<(>{{{-1 유의확률}}}||<)> ||<)>{{{-1 #}}}||<)>{{{-1 #}}}|| ||<#FFFFFF><-4><(>,,동질적 부분집합에 있는 집단에 대한 평균이 표시됩니다.,,[BR],,a. 조화평균 표본크기 ###.###을(를) 사용합니다.,,[BR],,b. 집단 크기가 동일하지 않습니다. 집단 크기의 조화평균이,,[BR],,사용됩니다. I 유형 오차 수준은 보장되지 않습니다.,,|| }}}저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.이 동의는 철회할 수 없습니다.캡챠저장미리보기